循环闭合是同时定位和映射(SLAM)系统的重要组成部分。大型视野(FOV)摄像机在SLAM领域受到了广泛的关注,因为它们可以利用全景图像上更多的周围功能。在大型VIO中,用于结合位于全景镜头负面平面上的信息提示,图像特征由具有单位长度的三维矢量表示。虽然全景FOV似乎对于循环封闭是有利的,但在大角度的差异下,这些好处不能轻易实现,在大型角度差异下,循环封闭帧几乎无法通过现有方法匹配。在这项工作中,为了完全释放超宽FOV的潜力,我们建议利用VIO系统的态度信息来指导环路闭合的特征点检测。随着宽圈全景数据上的循环封闭进一步带有许多离群值,因此传统的异常拒绝方法并非直接适用。为了解决此问题,我们提出了一个基于单位长度表示的新离群拒绝方法的循环封闭框架,以提高LF-VIO的准确性。在公共Palvio数据集上,进行了一组全面的实验,并提出的LF-Vio-loop优于最先进的视觉惯性化学方法。我们的代码将在https://github.com/flysoaryun/lf-vio-loop上开放。
translated by 谷歌翻译
在本文中,我们介绍了全景语义细分,该分段以整体方式提供了对周围环境的全景和密集的像素的理解。由于两个关键的挑战,全景分割尚未探索:(1)全景上的图像扭曲和对象变形; (2)缺乏培训全景分段的注释。为了解决这些问题,我们提出了一个用于全景语义细分(Trans4Pass)体系结构的变压器。首先,为了增强失真意识,Trans4Pass配备了可变形的贴片嵌入(DPE)和可变形的MLP(DMLP)模块,能够在适应之前(适应之前或之后)和任何地方(浅层或深度级别的(浅层或深度))和图像变形(通过任何涉及(浅层或深层))和图像变形(通过任何地方)和图像变形设计。我们进一步介绍了升级后的Trans4Pass+模型,其中包含具有平行令牌混合的DMLPV2,以提高建模歧视性线索的灵活性和概括性。其次,我们提出了一种无监督域适应性的相互典型适应(MPA)策略。第三,除了针孔到型 - 帕诺amic(PIN2PAN)适应外,我们还创建了一个新的数据集(Synpass),其中具有9,080个全景图像,以探索360 {\ deg} Imagery中的合成对真实(Syn2real)适应方案。进行了广泛的实验,这些实验涵盖室内和室外场景,并且使用PIN2PAN和SYN2REAL方案进行了研究。 Trans4Pass+在四个域自适应的全景语义分割基准上实现最先进的性能。代码可从https://github.com/jamycheung/trans4pass获得。
translated by 谷歌翻译
人具有天生的感知周围环境的能力,因为他们可以从以自我为中心的感知中提取空间表示,并通过空间转换和内存更新形成同类语义图。但是,由于两个困难,赋予具有这种空间感应能力的移动试剂仍然是一个挑战:(1)先前的卷积模型受到局部接收场的限制,因此,在观察过程中努力捕获整体的长距离依赖性; (2)成功所需的过度计算预算通常会导致映射管道分为阶段,从而导致整个映射过程效率低下。为了解决这些问题,我们提出了一个基于映射的端到端一阶段变压器的框架,称为Trans4map。我们的以自我为中心的中心映射过程包括三个步骤:(1)有效的变压器从一批以自我为中心的图像中提取上下文特征; (2)提出的双向同类记忆(BAM)模块将自中心的特征投入到同类中心的内存中; (3)地图解码器解析了累积的内存并预测自上而下的语义分割图。相比之下,Trans4MAP取得了最新结果,减少了67.2%的参数,但在MatterPort3D数据集上获得了 +3.25%MIOU和A +4.09%MBF1的改进。代码将在https://github.com/jamycheung/trans4map上公开提供。
translated by 谷歌翻译
未能及时诊断并有效治疗抑郁症会导致全世界有超过2.8亿人患有这种心理障碍。抑郁症的信息提示可以从不同的异质资源(例如音频,视觉和文本数据)中收获,从而提高了对自动估计的新有效多模式融合方法的需求。在这项工作中,我们解决了从多模式数据中自动识别抑郁症的任务,并引入了一种接触机制,以连接异质信息,同时利用卷积双向LSTM作为我们的骨架。为了验证这一想法,我们对公共DAIC-WOZ基准进行了广泛的实验,以进行抑郁评估,该评估具有不同的评估模式,并考虑了特定性别的偏见。提出的模型在检测严重抑郁症和4.92 MAE时以0.89的精度和0.70 F1得分产生有效的结果。我们基于注意力的融合模块始终优于常规的晚期融合方法,并且与先前发表的抑郁估计框架相比,取得了竞争性能,同时学习诊断端到端的疾病并依靠较少的预处理步骤。
translated by 谷歌翻译
在这项工作中,我们将全景景观分割介绍为最整体的场景理解,无论是在视野(FOV)和图像级别的理解方面,用于基于标准摄像机的输入。完整的围绕理解为移动代理提供了最大的信息,这对于任何智能车辆至关重要,以便在安全至关重要的动态环境(例如现实世界流量)中做出明智的决定。为了克服缺乏带注释的全景图像,我们提出了一个框架,该框架允许在标准针孔图像上进行模型训练,并以成本限制的方式将学习的功能传输到不同的域。使用我们提出的方法和密集的对比度学习,我们设法对非适应方法实现了重大改进。根据有效的综合分割体系结构,我们可以在我们已建立的野生全景泛滥分割(WILDPPS)数据集中,以圆锥体质量(PQ)测量的3.5-6.5%提高3.5-6.5%。此外,我们的有效框架不需要访问目标域的图像,使其成为适合有限硬件设置的可行域概括方法。作为其他贡献,我们发布了WILDPPS:第一个全景全景图像数据集,以促进周围感知的进展,并探索一种结合受监督和对比度培训的新型培训程序。
translated by 谷歌翻译
由少量镜头组成的全景环形镜头(PAL)在全景周围具有巨大潜力,该镜头围绕着移动和可穿戴设备的传感任务,因为其尺寸很小,并且视野很大(FOV)。然而,由于缺乏畸变校正的镜头,小体积PAL的图像质量仅限于光学极限。在本文中,我们提出了一个环形计算成像(ACI)框架,以打破轻质PAL设计的光学限制。为了促进基于学习的图像恢复,我们引入了基于波浪的模拟管道,用于全景成像,并通过多个数据分布来应对合成间隙。提出的管道可以轻松地适应具有设计参数的任何PAL,并且适用于宽松的设计。此外,我们考虑了全景成像和物理知识学习的物理先验,我们设计了物理知情的图像恢复网络(PI2RNET)。在数据集级别,我们创建了Divpano数据集,其广泛的实验表明,我们提出的网络在空间变化的降级下在全景图像恢复中设置了新的最新技术。此外,对只有3个球形镜头的简单PAL上提议的ACI的评估揭示了高质量全景成像与紧凑设计之间的微妙平衡。据我们所知,我们是第一个探索PAL中计算成像(CI)的人。代码和数据集将在https://github.com/zju-jiangqi/aci-pi2rnet上公开提供。
translated by 谷歌翻译
基于RGB图像的人类姿势估计(HPE)经历了从深度学习中受益的快速发展。但是,基于事件的HPE尚未得到充分研究,这仍然是在极端场景和关键效率条件下应用的巨大潜力。在本文中,我们是第一个直接从3D事件点云中估算2D人类姿势的人。我们提出了一个新颖的事件表示,即栅格的事件点云,将事件汇总在小时切片的相同位置上。它保持了来自多个统计提示的3D功能,并显着降低了记忆消耗和计算复杂性,这在我们的工作中很有效。然后,我们利用两种不同的骨干,点网,DGCNN和点变压器来利用栅格化事件点云,并使用两个线性层解码器来预测人关键点的位置。我们发现,基于我们的方法,PointNet以更快的速度实现了令人鼓舞的结果,而点传感器的精度也更高,甚至接近以前的基于事件框架的方法。一组全面的结果表明,在事件驱动的人姿势估计中,我们提出的方法对这些3D主干模型始终有效。我们基于2048点输入的PointNet的方法在DHP19数据集上的MPJPE3D中实现了82.46mm,而在NVIDIA Jetson jetson Xavier NX Edge Computing Platform上仅具有12.29ms的延迟,理想地适合于实时检测事件Cameras。代码将在https://github.com/masterhow/eventpointpose上公开制作。
translated by 谷歌翻译
本地功能匹配是在子像素级别上的计算密集任务。尽管基于检测器的方法和特征描述符在低文本场景中遇到了困难,但具有顺序提取到匹配管道的基于CNN的方法无法使用编码器的匹配能力,并且倾向于覆盖用于匹配的解码器。相比之下,我们提出了一种新型的层次提取和匹配变压器,称为火柴场。在层次编码器的每个阶段,我们将自我注意事项与特征提取和特征匹配的交叉注意相结合,从而产生了人直觉提取和匹配方案。这种匹配感知的编码器释放了过载的解码器,并使该模型高效。此外,将自我交叉注意在分层体系结构中的多尺度特征结合起来,可以提高匹配的鲁棒性,尤其是在低文本室内场景或更少的室外培训数据中。得益于这样的策略,MatchFormer是效率,鲁棒性和精度的多赢解决方案。与以前的室内姿势估计中的最佳方法相比,我们的Lite MatchFormer只有45%的Gflops,但获得了 +1.3%的精度增益和41%的运行速度提升。大型火柴构造器以四个不同的基准达到最新的基准,包括室内姿势估计(SCANNET),室外姿势估计(Megadepth),同型估计和图像匹配(HPATCH)和视觉定位(INLOC)。
translated by 谷歌翻译
传统的基于视频的人类活动识别与深度学习的兴起有关,但这种效果较慢,因为涉及驾驶员行为的下游任务。了解车辆机舱内部的情况对于高级驾驶助理系统(ADA)至关重要,因为它可以识别出干扰,预测驾驶员的意图并导致更方便的人车相互作用。同时,驾驶员观察系统需要捕获驾驶状态的不同粒度,而驾驶员观察系统则面临着严重的障碍,而此类次级活动的复杂性随着自动化的上升和增加的驾驶员自由而增长。此外,很少在与训练集中相同的条件下部署模型,因为传感器的放置和类型因车辆而异,因此构成了数据驱动模型的现实生活的实质性障碍。在这项工作中,我们提出了一个基于视觉的新型框架,用于识别基于视觉变压器的次级驱动器行为和额外的增强功能分布校准模块。该模块在潜在的功能空间丰富和多样化功能级的训练集中运行,以改善对新型数据出现(例如传感器变化)和一般功能质量的概括。我们的框架始终导致更好的识别率,超过了所有粒度水平上公共驱动器和ACT基准的先前最新结果。我们的代码可在https://github.com/kpeng9510/transdarc上公开获取。
translated by 谷歌翻译
大型预训练的变压器是现代语义分割基准的顶部,但具有高计算成本和冗长的培训。为了提高这种约束,我们从综合知识蒸馏的角度来研究有效的语义分割,并考虑弥合多源知识提取和特定于变压器特定的斑块嵌入之间的差距。我们提出了基于变压器的知识蒸馏(TransKD)框架,该框架通过蒸馏出大型教师变压器的特征地图和补丁嵌入来学习紧凑的学生变形金刚,绕过长期的预训练过程并将FLOPS降低> 85.0%。具体而言,我们提出了两个基本和两个优化模块:(1)交叉选择性融合(CSF)可以通过通道注意和层次变压器内的特征图蒸馏之间的知识转移; (2)嵌入对齐(PEA)在斑块过程中执行尺寸转换,以促进贴片嵌入蒸馏; (3)全局本地上下文混合器(GL-MIXER)提取了代表性嵌入的全局和局部信息; (4)嵌入助手(EA)是一种嵌入方法,可以无缝地桥接老师和学生模型,并具有老师的渠道数量。关于CityScapes,ACDC和NYUV2数据集的实验表明,TransKD的表现优于最先进的蒸馏框架,并竞争了耗时的预训练方法。代码可在https://github.com/ruipingl/transkd上找到。
translated by 谷歌翻译